Specular microscopy assessment of the human corneal endothelium (CE) in Fuchs' dystrophy is challenging due to the presence of dark image regions called guttae. This paper proposes a UNet-based segmentation approach that requires minimal post-processing and achieves reliable CE morphometric assessment and guttae identification across all degrees of Fuchs' dystrophy. We cast the segmentation problem as a regression task of the cell and gutta signed distance maps instead of a pixel-level classification task as typically done with UNets. Compared to the conventional UNet classification approach, the distance-map regression approach converges faster in clinically relevant parameters. It also produces morphometric parameters that agree with the manually-segmented ground-truth data, namely the average cell density difference of -41.9 cells/mm2 (95% confidence interval (CI) [-306.2, 222.5]) and the average difference of mean cell area of 14.8 um2 (95% CI [-41.9, 71.5]). These results suggest a promising alternative for CE assessment.
translated by 谷歌翻译
剖面隐藏的马尔可夫模型(PHMM)广泛用于许多生物信息学应用中,以准确识别生物学序列(例如DNA或蛋白质序列)之间的相似性。 PHMM使用常用和高度精确的方法(称为Baum-Welch算法)来计算这些相似性。但是,Baum-Welch算法在计算上很昂贵,现有作品为固定的PHMM设计提供了软件或仅硬件解决方案。当我们分析最先进的作品时,我们发现迫切需要灵活,高性能和节能的硬件软件共同设计,以有效地有效地解决所有主要效率低下的效率PHMM的Baum-Welch算法。我们提出了APHMM,这是第一个灵活的加速框架,可以显着减少PHMM的Baum-Welch算法的计算和能量开销。 APHMM利用硬件软件共同设计来解决Baum-Welch算法中的主要效率低下,通过1)设计灵活的硬件来支持不同的PHMMS设计,2)利用可预测的数据依赖性模式,并使用chip Memory的片段记忆,使用纪念活动技术,memoigience Memoriques,Memoigience Memoriques,Memoigient, 3)通过基于硬件的过滤器快速消除可忽略的计算,4)最小化冗余计算。我们在专用硬件和2)GPU的软件优化方面实现了我们的1)硬件软件优化,以为PHMM提供首个灵活的Baum-Welch加速器。与Baum-Welch算法的CPU,GPU和FPGA实现相比,APHMM提供的显着加速度为15.55 x-260.03x,1.83x-5.34x和27.97倍,分别为27.97倍。 APHMM的表现优于三个重要的生物信息学应用程序的最新CPU实现,1)错误校正,2)蛋白质家族搜索和3)多个序列对齐,比1.29x-59.94x,1.03x-1.75x和分别为1.03x-1.95x。
translated by 谷歌翻译
筛查结肠镜检查是多种3D计算机视觉技术的重要临床应用,包括深度估计,表面重建和缺失区域检测。但是,由于难以获取地面真相数据,因此在实际结肠镜检查视频中对这些技术的开发,评估和比较仍然在很大程度上是定性的。在这项工作中,我们提出了一个带有高清临床结肠镜和高保真结肠模型的结肠镜检查3D视频数据集(C3VD),用于在结肠镜检查中进行基准计算机视觉方法。我们介绍了一种新颖的多模式2D-3D注册技术,以注册光学视频序列,并以地面真实的视图对已知3D模型的视图。通过将光学图像转换为具有生成对抗网络的深度图,并通过进化优化器对齐边缘特征来注册不同的模态。在模拟实验中,这种注册方法达到了0.321毫米的平均翻译误差,平均旋转误差为0.159度,无误地面真相可用。该方法还利用视频信息,将注册精度提高了55.6%以进行翻译,与单帧注册相比,旋转60.4%。 22个简短的视频序列被注册,以生成10,015个总帧,具有配对的地面真实深度,表面正常,光流,遮挡,六个自由度姿势,覆盖范围图和3D模型。该数据集还包括胃肠病学家与配对地面真相姿势和3D表面模型获得的筛选视频。数据集和注册源代码可在urr.jhu.edu/c3vd上获得。
translated by 谷歌翻译
在本文中,我们解决了包含人脸和声音的视频中的唇彩同步问题。我们的方法是基于确定视频中的嘴唇运动和声音是否同步,具体取决于其视听对应得分。我们提出了一个基于视听的跨模式变压器模型,该模型在标准的唇读语音基准数据集LRS2上胜过音频视频同步任务中的几个基线模型。尽管现有的方法主要集中在语音视频中的唇部同步上,但我们也考虑了歌声的特殊情况。由于持续的元音声音,唱歌声音是同步的更具挑战性的用例。我们还研究了在唱歌语音的背景下在语音数据集中训练的LIP同步模型的相关性。最后,我们使用在唱歌语音分离任务中通过唇部同步模型学到的冷冻视觉特征,以优于训练有素的端到端的基线音频视觉模型。演示,源代码和预训练的模型可在https://ipcv.github.io/vocalist/上找到。
translated by 谷歌翻译
本文提出了一种语音分离的视听方法,在两种情况下以低潜伏期产生最先进的结果:语音和唱歌声音。该模型基于两个阶段网络。运动提示是通过轻巧的图形卷积网络获得的,该网络处理面对地标。然后,将音频和运动功能馈送到视听变压器中,该变压器对隔离目标源产生相当好的估计。在第二阶段,仅使用音频网络增强了主导语音。我们提出了不同的消融研究和与最新方法的比较。最后,我们探讨了在演唱语音分离的任务中训练训练语音分离的模型的可传递性。https://ipcv.github.io/vovit/可用演示,代码和权重
translated by 谷歌翻译
这项工作评估了生成模型的质量度量的鲁棒性,例如INPECTION评分(IS)和FR \'Echet Inception距离(FID)。类似于深层模型对各种对抗性攻击的脆弱性,我们表明这种指标也可以通过添加剂像素扰动来操纵。我们的实验表明,可以生成分数很高但知觉质量低的图像分布。相反,人们可以优化对小型扰动,当将其添加到现实世界图像中时,会使他们的分数恶化。我们进一步将评估扩展到生成模型本身,包括最先进的网络样式。我们展示了生成模型和FID的脆弱性,反对潜在空间中的累加扰动。最后,我们证明,通过简单地以强大的启动来代替标准发明,可以强大地实现FID。我们通过广泛的实验来验证鲁棒度量的有效性,这表明它对操纵更为强大。
translated by 谷歌翻译
数据增强是自然语言处理(NLP)模型的鲁棒性评估的重要组成部分,以及增强他们培训的数据的多样性。在本文中,我们呈现NL-Cogmenter,这是一种新的参与式Python的自然语言增强框架,它支持创建两个转换(对数据的修改)和过滤器(根据特定功能的数据拆分)。我们描述了框架和初始的117个变换和23个过滤器,用于各种自然语言任务。我们通过使用其几个转换来分析流行自然语言模型的鲁棒性来证明NL-Upmenter的功效。基础架构,Datacards和稳健性分析结果在NL-Augmenter存储库上公开可用(\ url {https://github.com/gem-benchmark/nl-augmenter})。
translated by 谷歌翻译
AI正在经历范式转变,随着模型的兴起(例如Bert,Dall-E,GPT-3),这些模型经过大规模的数据训练,并且可以适应广泛的下游任务。我们称这些模型基础模型来强调其至关重要但不完整的特征。该报告提供了基础模型的机会和风险的详尽说明,包括其功能(例如语言,愿景,机器人技术,推理,人类互动)和技术原则(例如,模型架构,培训程序,数据,系统,安全,安全性,评估,理论)对其应用(例如法律,医疗保健,教育)和社会影响(例如不平等,滥用,经济和环境影响,法律和道德考虑)。尽管基础模型基于标准的深度学习和转移学习,但它们的规模导致了新的新兴能力,以及它们在许多任务中的有效性都激发了同质化。同质化提供了强大的杠杆作用,但要求谨慎,因为基础模型的缺陷均由下游的所有适应模型继承。尽管即将广泛地部署基础模型,但我们目前对它们的工作方式,失败以及由于其新兴属性的影响而缺乏清晰的了解。为了解决这些问题,我们认为基础模型的许多批判性研究都需要与他们的基本社会技术性质相称。
translated by 谷歌翻译
深度神经网络容易受到称为对抗性攻击的小输入扰动。通过迭代最大限度地减少网络对真正阶级标签的信心来构建这些对手的事实,我们提出了旨在反对这种效果的反对派层。特别地,我们的层在对手1的相反方向上产生输入扰动,并馈送分类器的输入的扰动版本。我们的方法是无培训和理论上的支持。我们通过将我们的层与名义上和强大的培训模型组合来验证我们的方法的有效性,并从黑盒进行大规模实验到CIFAR10,CIFAR100和ImageNet的自适应攻击。我们的层显着提高了模型鲁棒性,同时在清洁准确性上没有成本。
translated by 谷歌翻译
Designing experiments often requires balancing between learning about the true treatment effects and earning from allocating more samples to the superior treatment. While optimal algorithms for the Multi-Armed Bandit Problem (MABP) provide allocation policies that optimally balance learning and earning, they tend to be computationally expensive. The Gittins Index (GI) is a solution to the MABP that can simultaneously attain optimality and computationally efficiency goals, and it has been recently used in experiments with Bernoulli and Gaussian rewards. For the first time, we present a modification of the GI rule that can be used in experiments with exponentially-distributed rewards. We report its performance in simulated 2- armed and 3-armed experiments. Compared to traditional non-adaptive designs, our novel GI modified design shows operating characteristics comparable in learning (e.g. statistical power) but substantially better in earning (e.g. direct benefits). This illustrates the potential that designs using a GI approach to allocate participants have to improve participant benefits, increase efficiencies, and reduce experimental costs in adaptive multi-armed experiments with exponential rewards.
translated by 谷歌翻译